아파치 스파크

"오늘의AI위키"는 AI 기술로 일관성 있고 체계적인 최신 지식을 제공하는 혁신 플랫폼입니다.
"오늘의AI위키"의 AI를 통해 더욱 풍부하고 폭넓은 지식 경험을 누리세요.

1. 개요
2. 역사
- 2.1. 버전 출시 역사
- 2.2. 유지보수 및 EOL
3. 핵심 구성 요소
4. 아키텍처 및 특징
- 4.1. 언어 지원
참조

1. 개요

아파치 스파크는 2009년 UC 버클리 AMPLab에서 시작된 오픈 소스 클러스터 컴퓨팅 프레임워크이다. 분산 데이터 집합인 RDD를 기반으로 하며, 데이터프레임 및 데이터세트 API를 제공한다. 스파크는 2013년 아파치 소프트웨어 재단에 기증되었으며, 2015년에는 가장 활발한 빅데이터 프로젝트 중 하나가 되었다. 스파크는 스파크 코어, 스파크 SQL, 스파크 스트리밍, MLlib, GraphX 등의 핵심 구성 요소를 포함하며, 다양한 프로그래밍 언어를 지원한다.

더 읽어볼만한 페이지

캘리포니아 대학교 버클리 - UC 버클리 법학대학원
UC 버클리 법학대학원은 1894년 캘리포니아 대학교 법학과로 설립되어 법과대학을 거쳐 현재의 명칭으로 변경되었으며, 미국 최상위권 로스쿨 중 하나로서 U.S. 뉴스 & 월드 리포트 기준 높은 순위를 기록하고, 다양한 법률 간행물 발간 및 연구 센터와 클리닉을 운영하며, 사회 각 분야의 저명한 동문들을 배출했다.
캘리포니아 대학교 버클리 - 로런스 버클리 국립연구소
로런스 버클리 국립연구소는 캘리포니아 대학교 버클리 캠퍼스에서 시작하여 미국 에너지부 산하 국립 연구소로 발전했으며, 가속기 개발, 핵융합 연구, 유전체학, 나노과학 등 다양한 분야에서 세계적인 연구를 수행하고 16개의 원소 발견, 15명의 노벨상 수상자 배출, 5개의 국립 과학 사용자 시설 운영을 통해 과학 발전에 기여하고 있다.
빅 데이터 제품 - 빅쿼리
빅쿼리는 구글의 데이터 분석 서비스로, 드레멜을 기반으로 수조 행의 데이터에 대한 빠른 쿼리를 가능하게 하며, 데이터 관리, 쿼리 실행, 서비스 통합, 접근 제어, 기계 학습 기능을 제공한다.
빅 데이터 제품 - SAP HANA
SAP HANA는 SAP SE에서 개발한 인메모리, 컬럼 지향 데이터베이스 관리 시스템으로, 빠른 데이터 처리 속도를 기반으로 온라인 트랜잭션 처리와 온라인 분석 처리를 단일 플랫폼에서 지원하며, SAP S/4HANA 등 다양한 SAP 애플리케이션 실행에 사용되고 클라우드 및 온프레미스 환경에 배포 가능하다.
클러스터 컴퓨팅 - 슈퍼컴퓨터
슈퍼컴퓨터는 일반 컴퓨터보다 훨씬 높은 성능을 가진 컴퓨터로, 복잡한 계산과 시뮬레이션을 수행하며, 프로세서, 메모리, 스토리지, 네트워크 등으로 구성되어 병렬 처리를 통해 높은 성능을 구현하고, 군사, 기상 예측, 과학 기술 분야, 인공지능 등 다양한 분야에서 활용되고 있다.
클러스터 컴퓨팅 - 컴퓨터 클러스터
컴퓨터 클러스터는 여러 대의 상용 컴퓨터를 고속 네트워크로 연결하여 고성능 컴퓨팅 시스템을 구축하는 방식으로, 슈퍼컴퓨터를 포함한 다양한 분야에서 높은 가용성과 확장성을 제공하며, 클러스터 미들웨어를 통해 시스템 관리, 부하 분산, 통신 방식, 데이터 공유 등을 지원하고 노드 장애 관리를 위한 펜싱 기술을 활용한다.

아파치 스파크 - [IT 관련 정보]에 관한 문서
기본 정보
스파크 로고
개발자	아파치 소프트웨어 재단 캘리포니아 대학교 버클리 AMPLab Databricks
최초 출시일	2014년 5월 26일
안정화 버전	3.5.3 (Scala 2.13) (2024년 9월 24일)
운영체제	마이크로소프트 윈도우 macOS 리눅스
프로그래밍 언어	스칼라 자바 SQL 파이썬 R C# F#
장르	데이터 분석 기계 학습 알고리즘
라이선스	아파치 라이선스 2.0
웹사이트	아파치 스파크 공식 웹사이트
저장소	Spark Repository
개발
창시자	마테이 자카리아

2. 역사

스파크는 2009년 UC 버클리 AMPLab에서 마테이 자하리아에 의해 시작되었다.^[33] 2010년에는 BSD 라이선스로 오픈 소스화되었다.^[33]

2013년 아파치 소프트웨어 재단에 기증되었고, 라이선스가 아파치 2.0으로 변경되었다. 2014년 2월, 아파치 최상위 프로젝트가 되었다.^[34]

2014년 11월, 스파크 창립자 마테이 자하리아의 회사인 Databricks는 스파크를 사용하여 대규모 정렬에서 새로운 세계 기록을 세웠다.^[35]^[33]

2015년에는 1,000명 이상의 기여자를 확보하며,^[36] 아파치 소프트웨어 재단에서 가장 활발한 프로젝트 중 하나이자 가장 활발한 오픈 소스 빅데이터 프로젝트 중 하나가 되었다.

2. 1. 버전 출시 역사

버전	최초 출시일	최신 버전	출시일
0.5	2012-06-12	0.5.2	2012-11-22
0.6	2012-10-15	0.6.2	2013-02-07^[62]
0.7	2013-02-27	0.7.3	2013-07-16
0.8	2013-09-25	0.8.1	2013-12-19
0.9	2014-02-02	0.9.2	2014-07-23
1.0	2014-05-26	1.0.2	2014-08-05
1.1	2014-09-11	1.1.1	2014-11-26
1.2	2014-12-18	1.2.2	2015-04-17
1.3	2015-03-13	1.3.1	2015-04-17
1.4	2015-06-11	1.4.1	2015-07-15
1.5	2015-09-09	1.5.2	2015-11-09
1.6	2016-01-04	1.6.3	2016-11-07
2.0	2016-07-26	2.0.2	2016-11-14
2.1	2016-12-28	2.1.3	2018-06-26
2.2	2017-07-11	2.2.3	2019-01-11
2.3	2018-02-28	2.3.4	2019-09-09
2.4 LTS	2018-11-02	2.4.8	2021-05-17^[38]
3.0	2020-06-18	3.0.3	2021-06-01^[39]
3.1	2021-03-02	3.1.3	2022-02-18^[40]
3.2	2021-10-13	3.2.4	2023-04-13^[41]
3.3	2022-06-16	3.3.3	2023-08-21^[42]
3.4	2023-04-13	3.4.3	2024-04-18^[43]
3.5	2023-09-09	3.5.2	2024-08-10^[44]

2. 2. 유지보수 및 EOL

기능 릴리스 브랜치는 일반적으로 18개월 동안 버그 수정 릴리스로 유지 관리된다. 예를 들어, 2.3.x 브랜치는 2018년 2월 2.3.0 릴리스 이후 18개월이 지난 2019년 9월부터 더 이상 유지 관리되지 않는다. 해당 시점 이후에는 버그 수정조차도 2.3.x 릴리스는 더 이상 기대할 수 없다.

주요 릴리스 내의 마지막 마이너 릴리스는 일반적으로 "LTS" 릴리스로 더 오래 유지 관리된다. 예를 들어, 2.4.0은 2018년 11월 2일에 릴리스되었으며, 2021년 5월에 2.4.8이 릴리스될 때까지 31개월 동안 유지 관리되었다. 2.4.8은 마지막 릴리스이며, 버그 수정조차도 2.4.x 릴리스는 더 이상 기대할 수 없다.^[47]

3. 핵심 구성 요소

아파치 스파크는 내고장성 분산 데이터 집합인 RDD(Resilient Distributed Dataset, 탄력적 분산 데이터 세트)를 기반으로 한다.^[2] RDD는 클러스터의 여러 머신에 분산된 읽기 전용 멀티셋 데이터 항목이다. 스파크 1.x에서는 RDD가 주요 응용 프로그래밍 인터페이스(API)였지만, 스파크 2.x부터는 데이터세트 API 사용이 권장된다.^[3]^[4]^[5] RDD 기술은 여전히 데이터세트 API의 기반을 이루고 있다.^[6]^[7]

스파크와 RDD는 MapReduce 클러스터 컴퓨팅 프로그래밍 패러다임의 제한 사항에 대응하여 2012년에 개발되었다. MapReduce 프로그램은 디스크에서 데이터를 읽고, 함수를 매핑하고, 결과를 리듀스하여 디스크에 저장한다. 스파크의 RDD는 분산 프로그램의 작업 집합으로 기능하며, 제한된 형태의 분산 공유 메모리를 제공한다.^[8]

아파치 스파크 내부에서 워크플로우는 방향 비순환 그래프(DAG)로 관리된다. 노드는 RDD를, 엣지는 RDD에 대한 연산을 나타낸다.

스파크는 반복 알고리즘과 반복적인 데이터베이스 스타일 데이터 쿼리인 대화형/탐색적 데이터 분석 구현을 용이하게 한다. 이러한 애플리케이션의 대기 시간은 아파치 하둡 MapReduce 구현에 비해 수십 배 감소할 수 있다.^[9] 반복 알고리즘에는 아파치 스파크 개발의 초기 동기를 형성한 기계 학습 시스템의 훈련 알고리즘이 있다.^[10]

아파치 스파크는 클러스터 관리자와 클러스터 파일 시스템인 분산 스토리지 시스템이 필요하다.

클러스터 관리: 스파크는 독립 실행형 네이티브 스파크, 하둡 YARN, 아파치 메소스 또는 쿠버네티스를 지원한다.^[11]
분산 스토리지: 스파크는 Alluxio, 하둡 분산 파일 시스템 (HDFS),^[12] MapR 파일 시스템 (MapR-FS),^[13] 카산드라,^[14] 오픈스택 스위프트, 아마존 S3, 쿠두, Lustre 파일 시스템^[15] 등 다양한 분산 시스템과 인터페이스할 수 있다.

스파크는 의사 분산 로컬 모드도 지원하며, 이 경우 로컬 파일 시스템을 사용할 수 있고, 스파크는 CPU 코어당 하나의 실행기를 사용하여 단일 머신에서 실행된다.

3. 1. Spark Core

스파크 코어는 전체 프로젝트의 기반이다. 분산 작업 디스패칭, 스케줄링, 기본 I/O 기능을 제공하며, 자바, 파이썬, 스칼라, R, .NET^[16] 등의 언어를 위한 API를 제공한다. 이러한 API는 RDD(Resilient Distributed Dataset, 탄력적 분산 데이터 세트) 추상화를 중심으로 하며, 함수형/고차 프로그래밍 모델을 반영한다.^[2] "드라이버" 프로그램은 스파크에 함수를 전달하여 RDD에서 맵, 필터 또는 리듀스와 같은 병렬 작업을 호출하고, 스파크는 클러스터에서 함수의 실행을 병렬로 스케줄링한다.^[10] 이러한 작업과 조인과 같은 추가 작업은 RDD를 입력으로 받아 새로운 RDD를 생성한다. RDD는 불변이며, 해당 작업은 지연된다. 데이터 손실 시 재구성이 가능하도록 각 RDD의 "계보"(이를 생성한 일련의 작업)를 추적하여 내고장애 시스템을 확보한다. RDD는 모든 유형의 파이썬, .NET, 자바 또는 스칼라 객체를 포함할 수 있다.

RDD 중심의 함수형 프로그래밍 스타일 외에도, 스파크는 두 가지 제한된 형태의 공유 변수를 제공한다. ''브로드캐스트 변수''는 모든 노드에서 사용해야 하는 읽기 전용 데이터를 참조하는 반면, ''누산기''는 명령형 스타일로 리덕션을 프로그래밍하는 데 사용할 수 있다.^[10]

다음은 일련의 텍스트 파일에 나타나는 모든 단어의 빈도를 계산하고 가장 흔한 단어를 출력하는 스칼라 프로그램 예시이다.

```scala

val conf = new SparkConf().setAppName("wiki_test") // 스파크 구성 객체 생성

val sc = new SparkContext(conf) // 스파크 컨텍스트 생성

val data = sc.textFile("/path/to/somedir") // "somedir"에서 파일을 (파일 이름, 내용) 쌍의 RDD로 읽어 들입니다.

val tokens = data.flatMap(_.split(" ")) // 각 파일을 토큰(단어) 목록으로 분할합니다.

val wordFreq = tokens.map((_, 1)).reduceByKey(_ + _) // 각 토큰에 1의 카운트를 추가한 다음 단어 유형별로 카운트를 합산합니다.

wordFreq.sortBy(s => -s._2).map(x => (x._2, x._1)).top(10) // 상위 10개의 단어를 가져옵니다. 단어와 카운트를 바꿔 카운트별로 정렬합니다.

```

각 `map`, `flatMap` ( `map`의 변형) 및 `reduceByKey`는 단일 데이터 항목(또는 두 개의 항목 쌍)에 대한 간단한 작업을 수행하는 익명 함수를 사용하고, RDD를 새로운 RDD로 변환하기 위해 해당 인수를 적용한다.

스파크와 RDD는 분산 프로그램에 특정 선형 데이터 흐름 구조를 강제하는 MapReduce 클러스터 컴퓨팅 프로그래밍 패러다임의 제한 사항에 대응하여 2012년에 개발되었다. MapReduce 프로그램은 디스크에서 입력 데이터를 읽고, 데이터에 함수를 매핑하고, 맵 결과를 리듀스하며, 리듀스 결과를 디스크에 저장한다. 스파크의 RDD는 분산 프로그램의 작업 집합으로 기능하며, (의도적으로) 제한된 형태의 분산 공유 메모리를 제공한다.^[8]

RDD는 루프 내에서 여러 번 데이터 집합을 참조하는 반복법 알고리즘과 반복적인 데이터베이스 스타일 데이터 쿼리인 대화형/탐색적 데이터 분석의 구현을 용이하게 한다. 이러한 애플리케이션의 대기 시간은 아파치 하둡 MapReduce 구현에 비해 수십 배 감소할 수 있다.^[9] 반복 알고리즘 클래스 중에는 아파치 스파크 개발의 초기 동기를 형성한 기계 학습 시스템의 훈련 알고리즘이 있다.^[10]

3. 2. Spark SQL

스파크 SQL은 스파크 코어 위에 있는 구성 요소로, DataFrame이라고 불리는 데이터 추상화를 도입했다.^[18] 이는 구조화된 데이터와 반구조적 데이터를 지원한다. 스칼라, 자바, 파이썬 또는 .NET에서 DataFrame을 조작할 수 있는 도메인 특화 언어 (DSL)를 제공한다.^[16] 또한 명령줄 인터페이스 및 ODBC/JDBC 서버를 통해 SQL 언어 지원을 제공한다. DataFrame은 RDD가 제공하는 컴파일 시간 유형 검사가 부족하지만, 스파크 2.0부터는 강력한 유형의 DataSet도 스파크 SQL에서 완벽하게 지원된다.

다음은 스파크 SQL을 사용하여 JDBC를 통해 외부 데이터베이스에 연결하고 데이터를 가져오는 예시이다.

```scala

import org.apache.spark.sql.SparkSession

val url = "jdbc:mysql://yourIP:yourPort/test?user=yourUsername;password=yourPassword" // 데이터베이스 서버의 URL

val spark = SparkSession.builder().getOrCreate() // 스파크 세션 객체 생성

val df = spark

.read

.format("jdbc")

.option("url", url)

.option("dbtable", "people")

.load()

df.printSchema() // 이 DataFrame의 스키마를 확인합니다.

val countsByAge = df.groupBy("age").count() // 나이별로 사람 수를 계산합니다.

//또는 SQL을 통해

//df.createOrReplaceTempView("people")

//val countsByAge = spark.sql("SELECT age, count(*) FROM people GROUP BY age")

```

```scala

import org.apache.spark.sql.SQLContext

val url = "jdbc:mysql://yourIP:yourPort/test?user=yourUsername;password=yourPassword" // 데이터베이스 서버의 URL.

val sqlContext = new org.apache.spark.sql.SQLContext(sc) // sql 컨텍스트 객체를 생성한다.

val df = sqlContext

.read

.format("jdbc")

.option("url", url)

.option("dbtable", "people")

.load()

df.printSchema() // 이 DataFrame의 스키마를 살펴본다.

val countsByAge = df.groupBy("age").count() // 나이별로 사람 수를 센다.

3. 3. Spark Streaming

스트리밍 분석을 위해 스파크 코어의 빠른 스케줄링 기능을 사용한다. 스파크 스트리밍은 데이터를 미니 배치로 수집하고, 수집된 데이터의 미니 배치에 대해 RDD 변환을 수행한다. 이러한 설계는 배치 분석을 위해 작성된 동일한 애플리케이션 코드 집합을 스트리밍 분석에 사용할 수 있도록 하여, 람다 아키텍처의 쉬운 구현을 가능하게 한다.^[19]^[20] 그러나 이러한 편의성은 미니 배치 기간과 동일한 지연 시간이라는 대가를 치르게 한다. 미니 배치 대신 이벤트별로 이벤트를 처리하는 다른 스트리밍 데이터 엔진으로는 스톰과 플링크의 스트리밍 구성 요소가 있다.^[21] 스파크 스트리밍은 카프카, 플룸, 트위터, ZeroMQ, 키네시스, TCP/IP 소켓에서 데이터를 소비하는 내장 지원을 제공한다.^[22]

스파크 2.x에서는 스트리밍을 지원하기 위해 더 높은 수준의 인터페이스를 가진 데이터세트를 기반으로 하는 구조적 스트리밍이라는 별도의 기술도 제공된다.^[23]

3. 4. MLlib (Machine Learning Library)

MLlib는 스파크 코어 위에 구축된 분산 컴퓨팅 머신 러닝 프레임워크이다. 분산 메모리 기반의 스파크 아키텍처 덕분에 아파치 마하웃이 사용하는 디스크 기반 구현보다 최대 9배 빠르며, 확장성이 Vowpal Wabbit보다 더 뛰어나다.^[25]

MLlib는 대규모 머신 러닝 파이프라인을 단순화하며, 다음과 같은 다양한 머신 러닝 및 통계 알고리즘을 포함한다.

요약 통계량, 상관 관계, 층화 표본 추출, 가설 검정, 임의 데이터 생성^[26]
분류 및 회귀 분석: SVM, 로지스틱 회귀, 선형 회귀, 나이브 베이즈 분류, 의사 결정 트리, 랜덤 포레스트, 경사 부스팅 트리
교대 최소 제곱(ALS)을 포함한 협업 필터링 기술
군집 분석 방법: K-평균 군집화, 잠재 디리클레 할당 (LDA)
차원 축소 기술: 특이값 분해 (SVD) 및 주성분 분석 (PCA)
특징 추출 및 변환 함수
최적화 알고리즘: 확률적 경사 하강법, 제한된 메모리 BFGS (L-BFGS)

3. 5. GraphX

GraphX는 아파치 스파크를 기반으로 하는 분산 그래프 처리 프레임워크이다. GraphX는 불변의 RDD를 기반으로 하기 때문에 그래프 역시 불변이며, 따라서 그래프 데이터베이스와 같이 트랜잭션 방식으로 업데이트가 필요한 그래프에는 적합하지 않다.^[27] GraphX는 대규모 병렬 알고리즘(예: 페이지랭크) 구현을 위해 Pregel 추상화와 좀 더 일반적인 MapReduce 스타일의 API, 이 두 가지 API를 제공한다.^[28] 스파크 1.6에서 공식적으로 사용 중단된 이전 버전인 Bagel과 달리 GraphX는 속성 그래프(속성을 엣지와 정점에 연결할 수 있는 그래프)를 완벽하게 지원한다.^[29]

아파치 스파크와 마찬가지로 GraphX는 처음에는 UC 버클리 AMPLab와 Databricks의 연구 프로젝트로 시작되었으며, 나중에 아파치 소프트웨어 재단과 스파크 프로젝트에 기증되었다.^[30]

4. 아키텍처 및 특징

아파치 스파크는 내결함성을 가진 분산 데이터 집합인 RDD(Resilient Distributed Dataset)를 기반으로 한다.^[2] RDD는 클러스터의 여러 머신에 분산된 읽기 전용 멀티셋 데이터 항목이다. 스파크 1.x에서는 RDD가 주요 응용 프로그래밍 인터페이스(API)였지만, 스파크 2.x부터는 데이터세트 API를 사용하는 것이 권장된다.^[3]^[4]^[5] RDD 기술은 여전히 데이터세트 API의 기반을 이루고 있다.^[6]^[7]

스파크와 RDD는 MapReduce 클러스터 컴퓨팅 프로그래밍 패러다임의 제한 사항에 대응하여 2012년에 개발되었다. MapReduce는 디스크에서 입력 데이터를 읽고, 데이터에 함수를 매핑하고, 맵 결과를 리듀스하며, 리듀스 결과를 디스크에 저장하는 반면 스파크의 RDD는 분산 프로그램의 작업 집합으로 기능하며, 제한된 형태의 분산 공유 메모리를 제공한다.^[8]

아파치 스파크 내부에서 워크플로우는 방향 비순환 그래프(DAG)로 관리된다. 노드는 RDD를 나타내고, 엣지는 RDD에 대한 연산을 나타낸다.

스파크는 데이터 집합을 루프 내에서 여러 번 방문하는 반복 알고리즘과 반복적인 데이터베이스 스타일 데이터 쿼리인 대화형/탐색적 데이터 분석의 구현을 용이하게 한다. 이러한 애플리케이션의 대기 시간은 아파치 하둡 MapReduce 구현에 비해 수십 배 감소할 수 있다.^[9] 반복 알고리즘에는 아파치 스파크 개발의 초기 동기를 형성한 기계 학습 시스템의 훈련 알고리즘이 있다.^[10]

아파치 스파크는 클러스터 관리자와 분산 스토리지 시스템이 필요하다. 클러스터 관리를 위해 스파크는 독립 실행형 네이티브 스파크, 하둡 YARN, 아파치 메소스 또는 쿠버네티스를 지원한다.^[11] 분산 스토리지를 위해 스파크는 Alluxio, 하둡 분산 파일 시스템 (HDFS),^[12] MapR 파일 시스템 (MapR-FS),^[13] 카산드라,^[14] 오픈스택 스위프트, 아마존 S3, 쿠두, Lustre 파일 시스템^[15]을 포함한 다양한 분산 시스템과 인터페이스할 수 있으며, 사용자 지정 솔루션을 구현할 수도 있다. 스파크는 또한 의사 분산 로컬 모드도 지원하는데, 이 모드에서는 분산 스토리지가 필요하지 않고 로컬 파일 시스템을 대신 사용할 수 있으며, CPU 코어당 하나의 실행기를 사용하여 단일 머신에서 스파크가 실행된다.

4. 1. 언어 지원

스파크는 스칼라, 자바, SQL, R, 파이썬을 기본적으로 지원하며, .NET CLR^[31], 줄리아^[32] 등에 대한 타사 지원도 제공한다.

프로젝트 전체의 기반이며, RDD 추상화를 중심으로 하는 애플리케이션 프로그래밍 인터페이스(Java, Python, Scala, R)를 통해 공개되는 분산 태스크 디스패치, 스케줄링, 기본 I/O 기능을 구현하고 있다. (Java API는 다른 JVM 언어에서도 사용 가능하며, 줄리아^[55] 등 다른 비JVM 언어에서도 사용할 수 있다.)

참조

_[1] 웹사이트 Spark Release 2.0.0 https://spark.apache[...]
_[2] 간행물 Spark: Cluster Computing with Working Sets https://amplab.cs.be[...]
_[3] 웹사이트 Spark 2.2.0 Quick Start https://spark.apache[...] 2017-10-19
_[4] 웹사이트 Spark 2.2.0 deprecation list https://spark.apache[...] 2017-10-10
_[5] 웹사이트 A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Datasets: When to use them and why https://databricks.c[...] 2017-10-19
_[6] 서적 Spark: The Definitive Guide O'Reilly Media 2017-08-10
_[7] 웹사이트 What is Apache Spark? Spark Tutorial Guide for Beginner https://www.janbaskt[...] 2018-04-13
_[8] 간행물 Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing https://www.usenix.o[...] 2010
_[9] 간행물 Shark: SQL and Rich Analytics at Scale https://amplab.cs.be[...] 2013-06
_[10] 웹사이트 4 reasons why Spark could jolt Hadoop into hyperdrive https://gigaom.com/2[...] 2016-02-25
_[11] 웹사이트 Cluster Mode Overview - Spark 2.4.0 Documentation - Cluster Manager Types https://spark.apache[...] Apache Foundation 2019-07-09
_[12] 문서 Figure showing Spark in relation to other open-source Software projects including Hadoop https://amplab.cs.be[...]
_[13] 문서 MapR ecosystem support matrix http://doc.mapr.com/[...]
_[14] 간행물 Re: cassandra + spark / pyspark http://mail-archives[...] 2014-11-21
_[15] 서적 2014 IEEE 28th International Parallel and Distributed Processing Symposium IEEE 2014-05
_[16] 문서 dotnet/spark https://github.com/d[...] .NET Platform 2020-09-14
_[17] 웹사이트 GitHub - DFDX/Spark.jl: Julia binding for Apache Spark. https://github.com/d[...] 2019-05-24
_[18] 웹사이트 Spark Release 1.3.0 | Apache Spark https://spark.apache[...]
_[19] 웹사이트 Applying the Lambda Architecture with Spark, Kafka, and Cassandra ! Pluralsight https://www.pluralsi[...] 2016-11-20
_[20] 웹사이트 Building Lambda Architecture with Spark Streaming http://blog.cloudera[...] Cloudera 2016-06-17
_[21] 서적 2016 IEEE International Parallel and Distributed Processing Symposium Workshops (IPDPSW) IEEE 2016-05
_[22] 웹사이트 Getting Data into Spark Streaming https://www.sigmoid.[...] Sigmoid (Sunnyvale, California IT product company) 2016-07-07
_[23] 웹사이트 Structured Streaming In Apache Spark: A new high-level API for streaming https://databricks.c[...] 2017-10-19
_[24] 웹사이트 On-Premises vs. Cloud Data Warehouses: Pros and Cons https://www.techtarg[...] 2022-10-16
_[25] 웹사이트 Spark Meetup: MLbase, Distributed Machine Learning with Spark http://www.slideshar[...] Spark User Meetup, San Francisco, California 2014-02-10
_[26] 웹사이트 MLlib ! Apache Spark http://spark.apache.[...] 2016-01-18
_[27] 웹사이트 Finding Graph Isomorphisms In GraphX And GraphFrames: Graph Processing vs. Graph Database http://www.slideshar[...] sparksummit.org 2016-07-11
_[28] 서적 Spark GraphX in Action https://books.google[...] Manning 2016-07-01
_[29] 웹사이트 Finding Graph Isomorphisms In GraphX And GraphFrames: Graph Processing vs. Graph Database http://www.slideshar[...] sparksummit.org 2016-07-11
_[30] 간행물 GraphX: Graph Processing in a Distributed Dataflow Framework https://www.usenix.o[...] 2014-10
_[31] 웹사이트 .NET for Apache Spark | Big data analytics https://dotnet.micro[...] 2019-10-15
_[32] 웹사이트 Spark.jl https://github.com/d[...] 2021-10-14
_[33] 뉴스 Apache Spark speeds up big data decision-making https://www.computer[...] 2018-05-16
_[34] 웹사이트 The Apache Software Foundation Announces Apache™ Spark™ as a Top-Level Project https://blogs.apache[...] Apache Software Foundation 2014-03-04
_[35] 문서 Spark officially sets a new record in large-scale sorting http://databricks.co[...]
_[36] 웹사이트 Open HUB Spark development activity https://www.openhub.[...]
_[37] 웹사이트 The Apache Software Foundation Announces Apache™ Spark™ as a Top-Level Project https://blogs.apache[...] Apache Software Foundation 2014-03-04
_[38] 웹사이트 Spark 2.4.8 released https://spark.apache[...]
_[39] 웹사이트 Spark 3.0.3 released https://spark.apache[...]
_[40] 웹사이트 Spark 3.1.3 released https://spark.apache[...]
_[41] 웹사이트 Spark 3.2.4 released https://spark.apache[...]
_[42] 웹사이트 Spark 3.3.3 released https://spark.apache[...]
_[43] 웹사이트 Spark 3.4.3 released https://spark.apache[...]
_[44] 웹사이트 Spark 3.5.2 released https://spark.apache[...]
_[45] 웹사이트 Using Scala 3 with Spark https://www.47deg.co[...] 2022-07-29
_[46] 웹사이트 Apache Committee Information https://projects.apa[...]
_[47] 웹사이트 Versioning policy https://spark.apache[...]
_[48] 웹사이트 Spark Release 2.4.0 https://spark.apache[...] 2018-12-27
_[49] 뉴스 日経BP社、「ITインフラテクノロジーAWARD 2015」を発表。グランプリに「Docker」、準グランプリに「Apache Spark」 http://corporate.nik[...] 日経BP社
_[50] 간행물 Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing https://www.usenix.o[...]
_[51] 웹사이트 4 reasons why Spark could jolt Hadoop into hyperdrive https://gigaom.com/2[...] 2017-10-17
_[52] 웹사이트 Figure showing Spark in relation to other open-source Software projects including Hadoop https://amplab.cs.be[...]
_[53] 웹사이트 MapR ecosystem support matrix http://doc.mapr.com/[...]
_[54] 메일링리스트 Re: cassandra + spark / pyspark http://mail-archives[...] 2014-11-21
_[55] 웹사이트 https://github.com/d[...]
_[56] 웹사이트 Getting Data into Spark Streaming https://www.sigmoid.[...] Sigmoid (Sunnyvale, California IT product company) 2016-07-07
_[57] 서적 Spark GraphX in Action https://books.google[...] Manning 2016-07-01
_[58] 웹사이트 Finding Graph Isomorphisms In GraphX And GraphFrames: Graph Processing vs. Graph Database http://www.slideshar[...] sparksummit.org 2016-07-11
_[59] 서적 Spark GraphX in Action https://books.google[...] Manning 2016-07-01
_[60] 논문 GraphX: Graph Processing in a Distributed Dataflow Framework https://www.usenix.o[...] 2014-10
_[61] 웹인용 Spark Release 2.0.0 https://spark.apache[...]
_[62] 웹인용 Spark News http://spark.apache.[...] 2017-03-30

아파치 스파크

1. 개요

더 읽어볼만한 페이지

2. 역사

2. 1. 버전 출시 역사

2. 2. 유지보수 및 EOL

3. 핵심 구성 요소

3. 1. Spark Core

3. 2. Spark SQL

3. 3. Spark Streaming

3. 4. MLlib (Machine Learning Library)

3. 5. GraphX

4. 아키텍처 및 특징

4. 1. 언어 지원

참조

관련 사건 타임라인

스칼라의 미래, 자바와 코틀린 사이에서 – 바이라인네트워크

개발자가 주목할 만한 엔비디아 GTC 2025 주요 발표 – 바이라인네트워크

델테크놀로지스, ‘델 AI 팩토리’ 포트폴리오 업데이트 – 바이라인네트워크

엔비디아-구글클라우드, AI 인프라와 SW 협력 강화 – 바이라인네트워크

오픈소스계 슈퍼스타 ‘데이터브릭스’, 한국 시장 공식 진출 – 바이라인네트워크

구글 클라우드, 데이터 호수와 창고를 통합했다 – 바이라인네트워크

[IPO 2022] 제2의 SaaS 신화를 기록할까, 데이터브릭스(Databricks) – 바이라인네트워크

엔비디아, 클라우데라와 손잡고 GPU 기반 빅데이터 플랫폼 출시 – 바이라인네트워크

대형 투자 이끈 소프트웨어 기업, 데이터브릭스는 어디? – 바이라인네트워크